智能论文笔记

Geometric Features Informed Multi-person Human-object Interaction Recognition in Videos

Tanqiu Qiao , Qianhui Men , Frederick W. B. Li , Yoshiki Kubotani , Shigeo Morishima , Hubert P. H. Shum

分类：计算机视觉

2022-07-19

视频中的人类对象相互作用（HOI）识别对于分析人类活动很重要。在现实世界中，大多数关注视觉特征的工作通常都会受到阻塞。当HOI中有多个人和物体涉及时，这种问题将更加复杂。考虑到诸如人类姿势和物体位置之类的几何特征提供有意义的信息来了解HOI，我们认为将视觉和几何特征的好处结合在HOI识别中，并提出了一个新颖的两级几何形状特征信息信息图形卷积（2G） -GCN）。几何级图模拟了人类和对象的几何特征之间的相互依赖性，而融合级别的图将它们与人类和对象的视觉特征融合在一起。为了证明我们方法在挑战性场景中的新颖性和有效性，我们提出了一个新的多人HOI数据集（Mphoi-72）。关于Mphoi-72（多人HOI），CAD-1220（单人HOI）和双人动作（双手HOI）数据集的广泛实验证明了我们的表现与最先进的表现相比。

translated by 谷歌翻译

Speech Synthesis with Mixed Emotions

Kun Zhou , Berrak Sisman , Rajib Rana , B. W. Schuller , Haizhou Li

分类：自然语言处理 | 人工智能

2022-08-11

情感语音综合旨在使人类的声音具有各种情感影响。当前的研究主要集中于模仿属于特定情感类型的平均风格。在本文中，我们试图在运行时与情感混合在一起。我们提出了一种新颖的表述，可以衡量不同情绪的语音样本之间的相对差异。然后，我们将公式纳入序列到序列情感文本到语音框架中。在培训期间，该框架不仅明确地表征了情感风格，而且还通过用其他情感量化差异来探索情绪的序数。在运行时，我们通过手动定义情感属性向量来控制模型以产生所需的情绪混合物。客观和主观评估验证了拟议框架的有效性。据我们所知，这项研究是关于言语中混合情绪的建模，综合和评估混合情绪的第一项研究。

translated by 谷歌翻译

Learning Physics from the Machine: An Interpretable Boosted Decision Tree Analysis for the Majorana Demonstrator

I. J. Arnquist , F. T. Avignone III , A. S. Barabash , C. J. Barton , K. H. Bhimani , E. Blalock , B. Bos , M. Busch , M. Buuck , T. S. Caldwell

分类：机器学习

2022-07-21

Majorana示威者是一项领先的实验，寻找具有高纯净锗探测器（HPGE）的中性s中性双β衰变。机器学习提供了一种最大化这些检测器提供的信息量的新方法，但是与传统分析相比，数据驱动的性质使其不可解释。一项可解释性研究揭示了机器的决策逻辑，使我们能够从机器中学习以反馈传统分析。在这项工作中，我们介绍了Majorana演示者数据的第一个机器学习分析。这也是对任何锗探测器实验的第一个可解释的机器学习分析。训练了两个梯度增强的决策树模型，以从数据中学习，并进行了基于游戏理论的模型可解释性研究，以了解分类功率的起源。通过从数据中学习，该分析识别重建参数之间的相关性，以进一步增强背景拒绝性能。通过从机器中学习，该分析揭示了新的背景类别对相互利用的标准Majorana分析的重要性。该模型与下一代锗探测器实验（如传说）高度兼容，因为它可以同时在大量探测器上进行训练。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

Distillation of Human-Object Interaction Contexts for Action Recognition

Muna Almushyti , Frederick W. Li

分类：计算机视觉

2021-12-17

建模空间关系对于识别人类行为，尤其是当人类与物体相互作用时，而多个物体随着时间的推移会随着时间的推移而出现多个物体。大多数现有的行动识别模型专注于学习场景的整体视觉线索，而是无视内容的内容细粒度，可以通过学习人对象关系和互动来捕获。在本文中，我们通过利用当地和全球背景的互动来学习人对象关系。因此，我们提出了全球局部相互作用蒸馏网（GLIDN），通过空间和时间通过知识蒸馏来学习人和对象相互作用，以进行细粒度的现场理解。 Glidn将人和对象编码为Graph节点，并通过图注意网络了解本地和全球关系。本地上下文图通过在特定时间步骤中捕获它们的共同发生来了解帧级别的人类和对象之间的关系。全局关系图是基于人类和对象交互的视频级构建的，识别它们在视频序列中的长期关系。更重要的是，我们研究了如何将这些图表的知识如何蒸馏到它们的对应部分，以改善人对象相互作用（Hoi）识别。通过在两个数据集上进行全面的实验，我们评估我们的模型，包括Charades和CAD-120数据集。我们已经实现了比基线和对应方法更好的结果。

translated by 谷歌翻译

A novel GAN-based paradigm for weakly supervised brain tumor segmentation of MR images

Jay J. Yoo , Khashayar Namdar , Matthias W. Wagner , Liana Nobre , Uri Tabori , Cynthia Hawkins , Birgit B. Ertl-Wagner , Farzad Khalvati

分类：计算机视觉

2022-11-10

Segmentation of regions of interest (ROIs) for identifying abnormalities is a leading problem in medical imaging. Using Machine Learning (ML) for this problem generally requires manually annotated ground-truth segmentations, demanding extensive time and resources from radiologists. This work presents a novel weakly supervised approach that utilizes binary image-level labels, which are much simpler to acquire, to effectively segment anomalies in medical Magnetic Resonance (MR) images without ground truth annotations. We train a binary classifier using these labels and use it to derive seeds indicating regions likely and unlikely to contain tumors. These seeds are used to train a generative adversarial network (GAN) that converts cancerous images to healthy variants, which are then used in conjunction with the seeds to train a ML model that generates effective segmentations. This method produces segmentations that achieve Dice coefficients of 0.7903, 0.7868, and 0.7712 on the MICCAI Brain Tumor Segmentation (BraTS) 2020 dataset for the training, validation, and test cohorts respectively. We also propose a weakly supervised means of filtering the segmentations, removing a small subset of poorer segmentations to acquire a large subset of high quality segmentations. The proposed filtering further improves the Dice coefficients to up to 0.8374, 0.8232, and 0.8136 for training, validation, and test, respectively.

translated by 谷歌翻译

Graph Neural Networks for Low-Energy Event Classification & Reconstruction in IceCube

R. Abbasi , M. Ackermann , J. Adams , N. Aggarwal , J. A. Aguilar , M. Ahlers , M. Ahrens , J. M. Alameddine , A. A. Alves Jr. , N. M. Amin

分类：机器学习

2022-09-07

ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列，该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战，这是由于探测器的几何形状，不均匀的散射和冰中光的吸收，并且低于100 GEV的光，每个事件产生的信号光子数量相对较少。为了应对这一挑战，可以将ICECUBE事件表示为点云图形，并将图形神经网络（GNN）作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开，对不同的中微子事件类型进行分类，并重建沉积的能量，方向和相互作用顶点。基于仿真，我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术，包括已知系统不确定性的影响。对于中微子事件分类，与当前的IceCube方法相比，GNN以固定的假阳性速率（FPR）提高了信号效率的18％。另外，GNN在固定信号效率下将FPR的降低超过8（低于半百分比）。对于能源，方向和相互作用顶点的重建，与当前最大似然技术相比，分辨率平均提高了13％-20％。当在GPU上运行时，GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件，这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。

translated by 谷歌翻译

Open-radiomics: A Research Protocol to Make Radiomics-based Machine Learning Pipelines Reproducible

Ernest , Namdar , Matthias W. Wagner , Birgit B. Ertl-Wagner , Farzad Khalvati

分类：计算机视觉 | 机器学习

2022-07-29

人工智能（AI）技术在医学成像数据中的应用带来了令人鼓舞的结果。作为医学成像中AI管道的重要分支，放射线学面临两个主要挑战，即可重复性和可访问性。在这项工作中，我们介绍了开放放射线学，一组放射素学数据集以及一条全面的放射线学管道，该管道研究了放射素学的效果，具有提取设置，例如萃取设置，例如BINWIDTH和图像归一化对放射线学结果表现可重复性的可重复性。为了使放射科学研究更容易访问和可重现，我们为放射系统数据提供了建筑机器学习（ML）模型的指南，引入开放式放射线学，开放源代码放射线数据集的不断发展的集合，并为数据集发布基线模型。

translated by 谷歌翻译

A Probabilistic Autoencoder for Type Ia Supernovae Spectral Time Series

George Stein , Uros Seljak , Vanessa Bohm , G. Aldering , P. Antilogus , C. Aragon , S. Bailey , C. Baltay , S. Bongard , K. Boone

分类：机器学习

2022-07-15

我们从一组稀疏的光谱时间序列中构建了一个物理参数化的概率自动编码器（PAE），以学习IA型超新星（SNE IA）的内在多样性。 PAE是一个两阶段的生成模型，由自动编码器（AE）组成，该模型在使用归一化流（NF）训练后概率地解释。我们证明，PAE学习了一个低维的潜在空间，该空间可捕获人口内存在的非线性特征范围，并且可以直接从数据直接从数据中准确地对整个波长和观察时间进行精确模拟SNE IA的光谱演化。通过引入相关性惩罚项和多阶段训练设置以及我们的物理参数化网络，我们表明可以在训练期间分离内在和外在的可变性模式，从而消除了需要进行额外标准化的其他模型。然后，我们在SNE IA的许多下游任务中使用PAE进行越来越精确的宇宙学分析，包括自动检测SN Outliers，与数据分布一致的样本的产生以及在存在噪音和不完整数据的情况下解决逆问题限制宇宙距离测量。我们发现，与以前的研究相一致的最佳固有模型参数数量似乎是三个，并表明我们可以用$ 0.091 \ pm 0.010 $ mag标准化SNE IA的测试样本，该样本对应于$ 0.074 \ pm。 0.010 $ mag如果删除了特殊的速度贡献。训练有素的模型和代码在\ href {https://github.com/georgestein/supaernova} {github.com/georgestein/supaernova}上发布

translated by 谷歌翻译

Generative Neural Articulated Radiance Fields

Alexander W. Bergman , Petr Kellnhofer , Yifan Wang , Eric R. Chan , David B. Lindell , Gordon Wetzstein

分类：计算机视觉

2022-06-28

仅使用单视2D照片的收藏集对3D感知生成对抗网络（GAN）的无监督学习最近取得了很多进展。然而，这些3D gan尚未证明人体，并且现有框架的产生的辐射场不是直接编辑的，从而限制了它们在下游任务中的适用性。我们通过开发一个3D GAN框架来解决这些挑战的解决方案，该框架学会在规范的姿势中生成人体或面部的辐射场，并使用显式变形场将其扭曲成所需的身体姿势或面部表达。使用我们的框架，我们展示了人体的第一个高质量的辐射现场生成结果。此外，我们表明，与未接受明确变形训练的3D GAN相比，在编辑其姿势或面部表情时，我们的变形感知训练程序可显着提高产生的身体或面部的质量。

translated by 谷歌翻译